Échantillonnage pour l'extraction de motifs séquentiels : des basesde données statiques aux flots de données
نویسندگان
چکیده
Résumé. Depuis quelques années, la communauté fouille de données s’est intéressée à la problématique de l’extraction de motifs séquentiels à partir de grandes bases de données en considérant comme hypothèse que les données pouvaient être chargées en mémoire centrale. Cependant, cette hypothèse est mise en défaut lorsque les bases manipulées sont trop volumineuses. Dans cet article, nous étudions une technique d’échantillonnage basée sur des réservoirs et montrons comment cette dernière est particulièrement bien adaptée pour résumer de gros volumes de données. Nous nous intéressons ensuite à la problématique plus récente de la fouille sur des données disponibles sous la forme d’un flot continu et éventuellement infini ("data stream"). Nous étendons l’approche d’échantillonnage à ce nouveau contexte et montrons que nous sommes à même d’extraire des motifs séquentiels de flots tout en garantissant les taux d’erreurs sur les résultats. Les différentes expérimentations menées confirment nos résultats théoriques.
منابع مشابه
Salines : un automate au service de l'extraction de motifs séquentiels multidimensionnels
Résumé. Les entrepôts de données occupent aujourd’hui une place centrale dans le processus décisionnel. Outre leur consultation, une des finalités des entrepôts est de servir de socle aux techniques de fouilles de données. Malheureusement, les approches existantes exploitent peu les particularités des entrepôts (multidimensionnalité, hiérarchies et données historiques). Parmi ces méthodes, l’ex...
متن کاملExtraction de motifs séquentiels dans les flots de données d'usage du Web
Résumé. Ces dernières années, de nouvelles contraintes sont apparues pour les techniques de fouille de données. Ces contraintes sont typiques d’un nouveau genre de données : les “data streams”. Dans un processus de fouille appliqué sur un data stream, l’utilisation de la mémoire est limitée, de nouveaux éléments sont générés en permanence et doivent être traités le plus rapidement possible, auc...
متن کاملExtraction de Séquences Fréquentes : Des Bases de Données Statiques aux Flots de Données
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملVers une approche efficace d'extraction de motifs spatio-séquentiels
Résumé. Ces dernières années, l’augmentation de la quantité d’informations spatio-temporelles stockées dans les bases de données a fait naître de nouveaux besoins, notamment en matière de gestion des risques naturels, sanitaires ou anthropiques (p. ex. compréhension de la dynamique d’une épidémie de Dengue). Dans cet article, nous définissons un cadre théorique pour l’extraction de motifs spati...
متن کاملSPAMS: Une nouvelle approche incrémentale pour l'extraction de motifs séquentiels fréquents dans les data streams
Résumé. L’extraction de motifs séquentiels fréquents dans les data streams est un enjeu important traité par la communauté des chercheurs en fouille de données. Plus encore que pour les bases de données, de nombreuses contraintes supplémentaires sont à considérer de par la nature intrinsèque des streams. Dans cet article, nous proposons un nouvel algorithme en une passe : SPAMS, basé sur la con...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2008